Sesión 1:
¿Qué es la visualización de datos?

Alan R. Vázquez

Tecnológico de Monterrey

Los Tópicos de Hoy

  1. Ciencia de datos.

  1. Visualización y sus tres principios.

  1. Actividad.

Introducción a Ciencia de Datos

La ciencia de datos es …

un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimientos e ideas de muchos datos estructurados y no estructurados.


En el 2004 …

El huracán Frances estaba arrasando el Caribe y amenazando con golpear directamente la costa atlántica de Florida.

Los residentes se dirigieron a terrenos más altos, pero en Arkansas, los ejecutivos de Wal-Mart vieron que la situación ofrecía una gran oportunidad para una de sus armas más nuevas basadas en datos: la tecnología predictiva.

Una semana antes de que la tormenta tocara tierra, Linda M. Dillman, directora de información de Wal-Mart, presionó a su personal para que elaboraran pronósticos basados en lo que había sucedido cuando el huracán Charley azotó varias semanas antes.


Respaldada por billones de bytes de historial de compradores almacenados en el almacén de datos de Wal-Mart, consideró que la empresa podría “empezar a predecir lo que va a suceder, en lugar de esperar a que suceda”, como ella dijo.


¡De hecho, eso es lo que pasó!

El New York Times informó

“… los expertos analizaron los datos y descubrieron que las tiendas efectivamente necesitarían ciertos productos, y no sólo las habituales linternas.

Dillman dijo

“No sabíamos en el pasado que las Pop-Tarts de fresa aumentan sus ventas, como siete veces su tasa de ventas normal, antes de un huracán”

El esquema de ciencia de datos

Business understanding

  • La comprensión empresarial se refiere a definir el problema empresarial a resolver.

  • El objetivo es reformular el problema empresarial como un problema de ciencia de datos.

  • A menudo, reformular el problema y diseñar una solución es un proceso iterativo.

Data understanding

  • Si el objetivo es resolver un problema empresarial, los datos que componen la materia prima disponible a partir de la cual se construirá la solución.

  • Los datos disponibles rara vez coinciden con el problema.

  • Por ejemplo, los datos históricos a menudo se recopilan con fines no relacionados con el problema empresarial actual o sin ningún propósito explícito.

Nuestro objetivo es convertir los datos en información que contesten preguntas útiles.

Tipos de datos

Texto

Imágenes

Video

Audio

Datos númericos

La metodología de ciencia de datos esta basada en datos númericos dados en tablas.

De hecho, los textos, imágenes, videos o audios son transformados a este formato para procesarlos.

En este curso, asumiremos que los datos están en una tabla.

La Situación Problema

YouTube es una plataforma para compartir vídeos ampliamente conocida por la diversidad de vídeos subidos por sus usuarios.

El sitio permite a sus usuarios cargar, ver, calificar, compartir y comentar videos.

Un tipo particular de usuario es el creador de contenido, quien frecuentemente crea y sube videos entretenidos a la plataforma.

Objetivo de la situación problema

Esta situación problema concierne la creación de un póster que informe a un creador de contenido de Youtube los aspectos mas importantes del formato miniatura de un video. Es decir, que estén asociadas a un número de vistas grande.

Para esto, tendrás a tu disposición una base de datos con 7242 videos y 51 variables que se encuentra en el archivo “YouTube_Dataset.xlsx.”

Puedes encontrar más información en nuestra página de Canvas.

Visualización de datos y sus principios

¿Qué es la visualización de datos?

“Una visualización [de datos] es cualquier presentación visual destinada a revelar evidencia, haciendo visible lo invisible” Alberto Cairo (2015).

En escencia, una visualización de datos te permite profundizar en conjuntos de datos complejos para obtener información significativa mediante el uso de pantallas gráficas.


Las visualizaciones de datos se ocupan principalmente de proporcionar evidencia y permitir que la audiencia explore y llegue a sus propias conclusiones sobre lo que las visualizaciones revelan sobre los datos.

Los 3 principios de la visualización de datos

Principio 1: Formula el mensaje

Muchas veces el mensaje se obtiene al contestar una pregunta de interés.

Be ready to lose all your money on bitcoin, FCA tells consumers" Financial newspaper  headline in Guardian 12 January 2021 Great Britain UK Europe Stock Photo -  Alamy

Principio 2: Transforma los datos en información

Tu gráfica debe de usar los datos para transmitir el mensaje o contestar la pregunta. Es decir, debe de transformar los datos en información.

Enriquece tu gráfica con símbolos de color y texto para transmitir información adicional.

Principio 3: Aplica los principios del diseño gráfico

  1. Es fácil identificar objetos por color.
  2. Utiliza etiquetas directas en lugar de una leyenda.
  3. Elementos como texto, líneas, y formas que tengan la misma naturaleza deben parecerse.
  4. Equilibra gráficos y texto.
  5. Ten cuidado con las opciones predeterminadas del software de visualización.
  6. Usa un diseño de cuadrícula para organizar su visualización.

El mayor valor de una imagen es cuando nos obliga a notar lo que nunca esperábamos ver.” John W. Tukey.

John Tukey - Wikipedia

Actividad

Actividad (cooperative mode)

  1. Júntate con un compañero.
  2. Encuentren un buen y un mal ejemplo de una visualización (gráficas) en linea.
  3. Guarden las visualizaciones (por ejemplo, haciendo una captura de pantalla).
  4. Escriban una crítica breve (3 a 4 enunciados) de cada visualización.
  5. Suban un documento con sus criticas e imagenes en Canvas.